Posts tagged with #Deep Learning

19 posts found (Page 2 of 2)

assignment 2

Because the true distribution of $y$ is a one-hot vector, where $y_w=0$ for all $w \neq 0$ and $w_o=1$, the summation $\sum y_w \log(\hat{y}_y)$ simplifies to $\log(\hat{y}_o)$ 我们需要求解下面这个偏导数: $$...

依存句法分析

> 生成:Gemini-2. 5-pro, 整理:fyerfyer * 关系:依存关系是不对称的,**一个词是核心,另一个词是修饰或依附于它**。 * 我们用箭头来表示这种关系,箭头从核心词 (head) 指向修饰词 (dependent)。 * 核心词 (Head):也被称为“支配者 (governor)”,是被修饰的词。 * 修饰词 (Dependent):也被称为“从属...

依存句法分析中的增量性

在最严格的意义上,增量性指的是:在句法分析的任何一个时间点,**对于已经处理过的输入部分,我们都能得到一个单一的、连通的结构来表示其分析结果**。 最基本的基于依存句法的分析包含移入 (Shift)、左向规约 (Left-Reduce) 和 右向规约 (Right-Reduce)三个基本动作: * 左向规约:处理栈最顶端的两个词 $w_i$ 和 $w_j$。它会创建一个依存关系,让顶端的词...

神经网络补充

生物神经元具有如下的结构: * 树突 (Dendrites):像天线一样,负责**从其他神经元那里接收输入信号**。 * 轴突 (Axon):是一条单一的输出线,负责**将处理后的信号传递出去**。 * 突触 (Synapses):是轴突的末梢和其他神经元树突的连接点,是**信号传递的关键节点**。...

深度学习自然语言处理

在之前的讨论中,我们已经明确了非线性分类器的必要性,因为**大多数数据并不是线性可分的**,因此使用线性分类器的分类性能会受到限制。 神经网络是一类**具有非线性决策边界的分类器**。 神经元是一个通用的计算单元,它接受 $n$ 个输入并产生一个输出。 一个比较常见的神经元类型是 $Sigmoid$ 逻辑单元,神经元关联着一个 $n$ 维权重向量 $w$ 和一个标量偏置 $b$,其输出为:...

GloVe模型

我们先前介绍的Skip-gram模型通过在局部上下文窗口中进行预测来学习词嵌入。这些模型展示了捕捉词语相似性的语言模式的能力,但**未能利用全局共现统计信息**。 与Skip-gram不同,GloVe使用**全局统计信息**,通过最小二乘目标函数预测词 $j$ 出现在词 $i$ 上下文中的概率。 在详细讲述GloVe模型之前,我们先声明**共现矩阵**及其相关概念。 *...

Word2vec模型

一个词(如 `tea`)是一个**符号/能指 (Signifier)**,它代表了现实或想象世界中的某个**实体/所指 (Signified)**。词义是极其复杂的,它源于人类在世界中沟通和实现目标的意图。 最简单的表示方法是将每个词视为独立的实体。在向量空间中,这通常通过 **one-hot 向量(或称标准基向量)** 来实现。 例如,在一个词汇表 $V$ 中: $$...

SVD分解简介

> 本文章适用于速通SVD分解,因此讲得不是那么详细。 > 生成:Gemini-2. 5-pro, 整理:fyerfyer 奇异值分解(SVD)是一种强大而基础的矩阵分解技术,在数据科学、机器学习和自然语言处理(NLP)等领域有广泛应用。我们可以从三个互补的角度来理解SVD: 1...